Loading...
机构名称:
¥ 1.0

仅提示在图形,VR,电影和游戏等各个领域都有应用。尽管文本提示允许对生成的3D资产进行某种程度的控制,但通常很难准确地控制其身份,几何形状和外观,仅使用文本来控制其身份,几何形状和外观。尤其是这些方法缺乏生成特定受试者的3D资产的能力(例如,特定的狗而不是普通狗)。能够生成特定于3D的主题3D资产将显着减轻艺术家和3D获取的作品流量。在个性化特定于2D图像生成的受试者T2I模型中取得了显着的成功[13,21,38]。这些技术允许在不同上下文中生成特定主题图像,但它们不会生成3D资产或负担任何3D控制,例如观点变化。在这项工作中,我们提出了“ Dreambooth3d”,这是一种主题驱动的文本到3D代的方法。给定了几个(3-6)的图像捕获主题的图像(没有任何其他信息,例如相机姿势),我们生成了主题 - 特定的3D资产,这些资产也遵守输入文本提示中提供的上下文化。也就是说,我们可以生成具有给定主题的几何和外观身份的3D资产,同时也尊重变化(例如输入文本提示提供的睡眠或跳狗)。对于Dreambooth3d,我们从重点作品[33]中汲取灵感[33],该灵感使用T2I扩散模型得出的损失来优化NERF模型。我们观察到,简单地为给定主题个性化T2I模型,然后使用该模型来优化NERF,易于多种故障模式。一个关键问题是个性化的T2i模型往往会过度符合仅存在于稀疏主题图像中的相机观点。因此,从任意连续的角度来看,这种个性化T2I模型的结果损失不足以优化连贯的3D NERF资产。使用Dreambooth3D,我们提出了一个有效的优化方案,在该方案中,我们可以相互优化NERF资产和T2I模型,以共同使它们具有特定于主题。我们利用DreamFusion [33]进行NERF优化,并使用Dreambooth [38]进行T2I模型。特别是,我们提出了一个三阶段优化框架,在第一个阶段,我们部分地为Dreambooth模型进行了缩减,然后使用DreamFusion来选择NERF资产。部分填充的Dreambooth模型不会过分符合给定的主题视图,但也不会捕获所有特定于主题的细节。因此,结果NERF资产是3D相干的,但不是主体。在第二阶段,我们将Dreambooth模型完全填充,以捕获主题的细节并使用该模型来构建多视伪对象图像。也就是说,我们使用训练有素的Dreambooth模型将多视效果从训练有素的NERF转换为主题图像。在最终阶段,我们进一步优化了Dreambooth模型us-

arxiv:2303.13508V2 [CS.CV] 2023年3月27日

arxiv:2303.13508V2 [CS.CV] 2023年3月27日PDF文件第1页

arxiv:2303.13508V2 [CS.CV] 2023年3月27日PDF文件第2页

arxiv:2303.13508V2 [CS.CV] 2023年3月27日PDF文件第3页

arxiv:2303.13508V2 [CS.CV] 2023年3月27日PDF文件第4页

arxiv:2303.13508V2 [CS.CV] 2023年3月27日PDF文件第5页

相关文件推荐

2023 年
¥1.0
2023 年
¥1.0
2023 年
¥1.0